超大基因组物种,如何高效构建参考基因集?
高通量测序技术在动物研究中有广泛的应用,越来越多研究者通过高通量基因组学、转录组学、蛋白质组学等,对动植物进行全方位研究。
不过有些物种基因组很大,基因组组装遇到困难,如果想开展本物种基因组学研究,该怎么办呢?今天科技君给大家分享一篇珍稀动物——中国大鲵(Chinese Giant Salamander ,CGS)转录组测序的文章,看看如何通过转录组测序构建参考基因集。
文献标题:A reference gene set construction using RNA-seq of multiple tissues of Chinese Giant Salamander, Andrias davidianus
研究单位:华大基因和河南师范大学等联合团队
发表刊物: GigaScience
发表时间:2017年2月15日
影响因子:7.463
(点击页面下面“阅读原文”获取更多信息)
大鲵(Andrias davidianus)属隐腮鲵科,大鲵属,是世界上现存最大的也是最珍贵的两栖动物。它的叫声像婴儿的哭声,因此人们又叫它“娃娃鱼”。在过去的50年里,由于栖息地的破坏、气候变化,过量捕杀,中国大鲵数量急剧减少。大鲵具有特殊的进化地位和四个罕见的生命现象(长寿、耐饥饿、再生能力、孵化忌阳光直射),是科学研究中非常有价值的模式物种。
由于大鲵的基因组超级大(约50GB),基于目前的测序技术的限制,基因组难以进行de novo组装,所以大鲵缺少基因组资源,这严重制约了大鲵的分子生物学研究进展。不过RNA测序技术可以提供一种有效的替代方案来构建参考基因集。前人的研究,通过转录组测序研究了大鲵的皮肤和脾脏的转录组,但是这两个组织转录组不能够得到全面的中国大鲵的基因集。
样本选择:收集成年中国大鲵的20多个个组织样本(腹部皮肤、背部皮肤、侧部皮肤、肺、心脏、肾、胰腺、小肠、脾脏、胃、脑、脊髓、软骨、眼睛、指尖、长骨、上颌骨、头盖骨、肌肉、 卵巢、脂、大尾巴、血液)。
RNA提取及建库:采用 Trizol试剂提取样本中Total RNA,并构建转录组文库。
高通量测序:采用HiSeq测序仪进行测序,测序策略为PE90,总计的测序量为156Gb的clean data,每个样本约为6.5Gb,Q20>96%。
1. 转录组de novo组装及评价
为了获得一个完整的参考基因集,组装时是将所有样本的clean reads混合在一起,然后采用Trinity软件(v2.0.6)进行组装。为了减少组装的错误及背景序列的干扰,研究者开发了一个严格流程来过滤这些序列,具体的流程见图1。通过这个流程,得到了93,366条非冗余转录本,平均长度1,326bp,具体的统计结果见表1。然后将测序的reads比对到转录本的序列,比对率在70.15-86.07%,唯一比对率在69.24%-81.56%,除了长骨的样本(43.12%和42.21%)。经过评价,发现这个过滤的流程是非常有效的,它不仅仅移除组装的错误,并且保留了大部分唯一表达的序列。
图1 RNA 组装流程
第一步:移去组装错误,组装序列中的每个碱基至少被一条reads覆盖才会被保留,gap序列也会被修整。
第二步:移掉背景序列,所有的clean reads 将会被比对到转录本上,然后统计FPKM值,只有至少2个样本中的FPKM值≥1或者至少1个样本中FPKM≥5才会被保留。
第三步:移除可变剪接产生的isoform。
第四步:移掉短的序列,短于250bp的序列将会被移掉。
表1 组装指标和基因预测结果统计表
2. Unigene功能注释
将得到的41,874条测序的序列注释到NR、Swiss-Prot,KEGG、COG、GO数据库,数据库注释结果见表2。
表2 功能数据库注释结果
3. 编码基因集鉴定
采用图2的流程来鉴定高质量的编码蛋白,采用BlastX、ESTscan、Transdecoder 软件分别预测CDS序列,然后再进行整合(至少2种方法支持),并且需要CPC≥1,最后鉴定了26,135个蛋白。研究发现CPC方法可以非常有效地移除非编码RNAs,并可以保留编码的m RNA。表3展示了每个样本中的转录本和编码基因的数目统计。
图2 蛋白编码基因预测流程
表3 每个样本中的转录本和编码基因的数目统计表
4. 基因表达量分析
在表达水平,采用Bowtie2软件将clean reads比对到所有的转录本上,然后采用RSEM软件来计算每个基因的FPKM值。基因表达谱的聚类图显示编码基因的表达多样性高于非编码基因。
图3 不同样本中基因表达聚类图
左图是编码基因,右图是非编码基因,编码基因的表达多样性高于非编码基因。
该文章通过对中国大鲵的24个组织样本进行转录组测序,得到93,366条非冗余转录本,平均长度1326bp,这些转录本对应26,135个编码基因。研究得到的高质量的参考基因集,将为后续的中国大鲵的生物学研究提供非常有效的资源。另外文章的转录组组装和蛋白鉴定的策略可以对类似的研究提供参考。
GigaScience是崭新的开放型在线期刊,于2012年7月12日创刊。该期刊采用标准全文文献、数据库信息以及信息分析工具相结合的崭新模式,为科研工作者提供免费公开的有效数据以及生物学发现等资源。GigaScience积极致力于数据开放的工作,其中,华大基因很多未发表研究结果的数据集先在该平台上发布,以供其他研究项目使用,这并未影响到日后文章的发表。GigaScience突破了传统出版业的束缚,为数据全面公开与共享提供了一个优秀平台,实现了科研人员对数据资源最大可能的合理利用,并提高了数据密集型科研项目的再现性。
撰稿:王艳
编辑:市场部
猜你喜欢
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!